当前位置: 开发笔记 > 编程语言 > 正文

收藏|从头训练深度监督目标检测

作者：楼_市早班车_954 | 来源：互联网 | 2023-08-08 21:58

点上方计算机视觉联盟获取更多干货仅作学术分享，不代表本公众号立场，侵权联系删除转载于：作者：Sik-HoTsang编译&#x

点上方计算机视觉联盟获取更多干货

仅作学术分享&＃xff0c;不代表本公众号立场&＃xff0c;侵权联系删除

转载于&＃xff1a;作者&＃xff1a;Sik-Ho Tsang

编译&＃xff1a;ronghuaiyang | AI公园

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源&＃xff01;可打印版本附pdf下载链接

导读

从头训练目标检测模型&＃xff0c;无需预训练模型。

这篇文章是对DSOD: Learning Deeply Supervised Object Detectors from Scratch&＃xff0c;(DSOD)&＃xff0c;来自复旦大学&＃xff0c;清华大学&＃xff0c;英特尔实验室中国的回顾。

主要内容&＃xff1a;

Deeply Supervised Object Detector (DSOD) 的设计&＃xff0c;其中定义了一套设计原则&＃xff0c;帮助从头开始训练。
其中一个关键的发现是使用深度监督&＃xff0c;以及密集的层连接。

1. DSOD: 网络结构

DSOD预测层使用原始的dense结构 (300×300 输入)

所提出的DSOD方法是一个类似于SSD的多尺度proposal-free的检测框架。Proposal-free意味着不存在像Faster R-CNN或者R-FCN这样的区域建议&＃xff08;RPN&＃xff09;网络。DSOD的网络结构可分为两部分&＃xff1a;用于特征提取的骨干网络和用于多尺度响应图预测的前端子网络。

1.1. Backbone 子网络

这里使用的backbone 是一个变种的深度监督DenseNet&＃xff0c;由1个stem block&＃xff0c;4个dense blocks&＃xff0c;2个transition层以及2个没有池化层的transition层。

1.2. 前端子网络

前端子网洛(或称DSOD预测层)将多尺度预测响应融合为一个精心设计的dense结构。

DSOD结构(每个denseblock中&＃xff0c;growth rate k &＃61; 48)

上表显示了DSOD网络结构的详细信息。

与SSD相同&＃xff0c;smooth L1 loss用于定位&＃xff0c;softmax loss用于分类。

2. 从头训练的一系列设置

2.1. 原则1&＃xff1a;Proposal-Free

我们观察到&＃xff0c;在没有预先训练的模型的情况下&＃xff0c;只有proposal-free的方法才能成功收敛(而具有RPN的网络则不能)。

基于proposal的方法在预先训练的网络模型中工作得很好&＃xff0c;因为在RoI池化之前参数初始化对这些层很好&＃xff0c;而从头训练则不是这样。

2.2. 原则2: 深度监督

使用了一种优雅的隐式的深度监督方法叫做dense layer-wise connection&＃xff0c;在DenseNet中介绍过。DenseNet中较早的层可以通过跳跃连接从目标函数获得额外的监督。此外&＃xff0c;使用了transition w/o Pooling Layer&＃xff0c;即不降低最终feature map的分辨率。transition w/o pooling layer消除了DSOD中dense blocks的数量的这种限制。

2.3. 原则3: Stem Block

stem block是由三个3×3卷积层和一个2×2最大池化层组成的&＃xff0c;提高了检测性能。与DenseNet中的原设计相比 ( 7×7 conv-layer, stride &＃61; 2 followed by a 3×3 max pooling, stride &＃61; 2)&＃xff0c;这里的stem block可以减少从原始输入图像的信息损失。

2.4. 原则4: Dense Prediction结构

如上图所示&＃xff0c;对于300×300输入的图像&＃xff0c;生成了6个尺度的特征图。
Scale-1 feature maps具有最大的分辨率(38×38)&＃xff0c;以便处理图像中的小物体。
然后&＃xff0c;在两个相邻尺度的特征图之间采用具有bottleneck结构的原始transition层(一个1×1的卷积层用于减少特征图数量&＃xff0c;再加上一个3×3的卷积层)。
在SSD这样的普通结构中&＃xff0c;每一个后来的尺度直接从邻近的前一个尺度过渡。相比之下&＃xff0c;这里用于预测的dense结构&＃xff0c;融合了每个尺度的多尺度信息。
在DSOD中&＃xff0c;除了scale-1之外&＃xff0c;每个尺度的一半特征图是通过一系列的转换层从之前的尺度中学习的&＃xff0c;而其余的一半特征图是直接从相邻的高分辨率图中降采样的。
即每个比例尺只学习新特征图的一半&＃xff0c;并重用之前的一半。与普通结构相比&＃xff0c;这种dense的预测结构可以在更少的参数的情况下获得更准确的结果。

3. 消融研究

在PASCAL VOC 2007测试集上的消融研究

在PASCAL VOC 2007测试集上的消融研究的细节

使用了DSOD300 (输入尺寸为300×300)。
使用VOC 2007训练集和2012训练集(“07&＃43;12”)的组合训练集对模型进行训练&＃xff0c;并在VOC 2007测试集上进行测试。
DS/A-B-k-θ描述了主干网络的结构。
A表示在第一个卷积层中通道的数量。
B表示在每个bottleneck层(1×1 卷积)中通道的数量
k表示dense blocks中的growth rate。
θ表示在transition层中的压缩因子。

3.1. Dense Blocks的配置

Transition层中的压缩系数&＃xff1a;压缩系数θ&＃61;1表示transition层没有减少feature map&＃xff0c;而θ&＃61; 0.5表示减少了一半的feature map。结果表明&＃xff0c;θ &＃61; 1比θ &＃61; 0.5高2.9%。

bottleneck层中的通道数量&＃xff1a;更宽的bottleneck层&＃xff08;使用更多通道的响应层&＃xff09;提升了很多&＃xff08;4.1% mAP&＃xff09;。

第一层中的通道数量&＃xff1a;第一层中的大的通道数量是有益的&＃xff0c;这带来了1.1% mAP的提升。

Growth rate: 大的生长率k要好得多。当将k从16增加到48&＃xff0c;bottleneck通道为4k时&＃xff0c;观察到有4.8%的mAP改善。

3.2. 设计准则的效果

Proposal-free框架&＃xff1a;对于二阶段的Faster R-CNN和R-FCN&＃xff0c;对于所有的试过的网络结构(VGGNet, ResNet, DenseNet)训练都没有收敛。
使用SSD&＃xff0c;训练能收敛&＃xff0c;但是结果差很多 (69.6% for VGGNet)。
深度监督&＃xff1a;DSOD300 achieves 77.7% mAP。比SSD300的finetune结果好的多。
Transition w/o Pooling Layer&＃xff1a;使用没有池化的Transition的网络结构带来了1.7%的提升。
Stem Block&＃xff1a;stem block将结果从74.5%提升到了 77.3%。
Dense Prediction Structure&＃xff1a;使用了dense的前端结构的DSOD比原始结构速度稍慢了一些&＃xff08;17.4 fps vs. 20.6 fps&＃xff09;&＃xff0c;但是将mAP从77.3%提升到了77.7%&＃xff0c;同时参数量从18.2M减少到了14.8M。
在ImageNet上预训练会怎么样&＃xff1f;在ImageNet上小backbone网络DS/64–12–16–1&＃xff0c;能达到66.8% top-1准确率和87.8% top-5准确率。finetune之后&＃xff0c;在VOC 2007测试集上达到70.3%的mAP。
对应的从头训练的方案达到了70.7%&＃xff0c;略好一点。

3.3. 运行时的分析

使用300×300的输入尺寸&＃xff0c;DSOD处理一张图需要48.6ms (20.6 fps)&＃xff0c;在单个 Titan X GPU上&＃xff0c;使用原始的预测结构。使用dense的预测结构时&＃xff0c;需要57.5ms (17.4 fps)。
作为对比&＃xff0c;R-FCN在用ResNet50时&＃xff0c;运行时间为90ms (11 fps)&＃xff0c;ResNet101时&＃xff0c;运行时间为110ms (9 fps)。
SSD300用ResNet101时运行时间为82.6ms (12.1 fps) &＃xff0c;用VGGNet时为21.7ms (46 fps)。
轻量级的DSOD&＃xff08;10.4M参数&＃xff0c;不使用任何的加速优化&＃xff09;&＃xff0c;运行时间为25.8 fps&＃xff0c;只掉了1个点的mAP。

4. 实验结果

4.1. PASCAL VOC2007

模型是在VOC 2007 trainval和VOC 2012 trainval的联合数据集 (“07&＃43;12”)上训练的。
使用的batchsize是128&＃xff0c;由于显存不够&＃xff0c;所以两个迭代累积一次梯度。
DSOD300使用原始的连接方式达到了77.3%&＃xff0c;比SSD300略好&＃xff0c;比YOLOv2更好。
DSOD300使用了dense预测结构&＃xff0c;提升到了77.7%。
在加入的COCO的训练数据之后&＃xff0c;进一步提升到了81.7%。

4.2. PASCAL VOC2012

使用了VOC 2012 trainval和VOC 2007 trainval &＃43; test用于训练&＃xff0c;在VOC 2012 test上测试。
DSOD300达到76.3% mAP&＃xff0c;比SSD300&＃xff08;75.8%&＃xff09;&＃xff0c;YOLOv2 (73.4%)&＃xff0c;Faster R-CNN(73.8%)都好。
使用COCO训练&＃xff0c;DSOD300 (79.3%) 优于ION(76.4%) 和R-FCN 多尺度(77.6%)。

4.3. MS COCO

在trainval上进行训练。
DSOD300达到了29.3%/47.3% (overall mAP/mAP &＃64; 0.5)&＃xff0c;比SSD300要好很多。
结果相比单尺度的R-FCN也很有竞争力&＃xff0c;接近了使用ResNet101的预训练模型的R-FCN的多尺度模型。
有趣的是&＃xff0c;DSOD在0.5IoU上的结果低于R-FCN&＃xff0c;但是在[0.5:0.95]上的结果要更好。
这表示了在大的overlap的设置下&＃xff0c;DSOD的位置预测比R-FCN更加准确&＃xff0c;在小目标上&＃xff0c;检测准确率要比R-FCN差也很好解释&＃xff0c;因为我们的输出尺寸为300x300&＃xff0c;比R-FCN的600x1000要小的多。

5. 讨论

基于上面的结果&＃xff0c;进行了一些讨论。

5.1. 更好的模型结构 vs 更多的训练数据

与从大数据中训练出来的复杂模型相比&＃xff0c;更好的模型结构可能支持类似或更好的性能。

特别是&＃xff0c;在VOC 2007上&＃xff0c;DSOD只训练了16551张图像&＃xff0c;它的性能比训练了120万&＃43; 16551张图像的模型有竞争力甚至更好。

5.2. 为什么从头训练&＃xff1f;

首先&＃xff0c;从预先训练的模型领域到目标领域可能有很大的领域差异。
其次&＃xff0c;模型微调限制了目标检测网络的结构设计空间。

5.3. 模型的紧密性 vs. 表现

由于dense block的参数效率很高&＃xff0c;该模型比大多数其他方法要小得多。

例如&＃xff0c;最小的dense模型 (DS/ 64-64-16-1&＃xff0c;具有dense的预测层)达到73.6%的mAP&＃xff0c;仅有5.9M参数&＃xff0c;显示了在低端设备上应用的巨大潜力。

—END—

英文原文&＃xff1a;https://sh-tsang.medium.com/review-dsod-learning-deeply-supervised-object-detectors-from-scratch-object-detection-43393dcb31bd

-------------------

END

--------------------

我是王博Kings&＃xff0c;985AI博士&＃xff0c;华为云专家、CSDN博客专家&＃xff08;人工智能领域优质作者&＃xff09;。单个AI开源项目现在已经获得了2100&＃43;标星。现在在做AI相关内容&＃xff0c;欢迎一起交流学习、生活各方面的问题&＃xff0c;一起加油进步&＃xff01;

我们微信交流群涵盖以下方向&＃xff08;但并不局限于以下内容&＃xff09;&＃xff1a;人工智能&＃xff0c;计算机视觉&＃xff0c;自然语言处理&＃xff0c;目标检测&＃xff0c;语义分割&＃xff0c;自动驾驶&＃xff0c;GAN&＃xff0c;强化学习&＃xff0c;SLAM&＃xff0c;人脸检测&＃xff0c;最新算法&＃xff0c;最新论文&＃xff0c;OpenCV&＃xff0c;TensorFlow&＃xff0c;PyTorch&＃xff0c;开源框架&＃xff0c;学习方法...

这是我的私人微信&＃xff0c;位置有限&＃xff0c;一起进步&＃xff01;

王博的公众号&＃xff0c;欢迎关注&＃xff0c;干货多多

王博Kings的系列手推笔记&＃xff08;附高清PDF下载&＃xff09;&＃xff1a;

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机&＃xff08;上&＃xff09;

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机&＃xff08;下&＃xff09;

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类&＃xff08;上&＃xff09;

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类&＃xff08;下&＃xff09;

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习&＃xff08;上&＃xff09;

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习&＃xff08;下&＃xff09;

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

推荐阅读

gpu
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
random
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
instance
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
hash
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
foreach
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
list
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
version
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
version
a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析

a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析 ... [详细]

蜡笔小新 2024-11-06 14:52:58
hash
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
hash
开发者调查揭示：Python 备受青睐，PHP 成为最不受欢迎语言

Hired网站最新发布的开发者调查显示，Python 语言继续受到开发者的广泛欢迎，而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据，深入分析了当前编程语言的使用趋势和开发者偏好。此外，报告还探讨了其他热门语言如 JavaScript 和 Java 的表现，并提供了对技术招聘市场的洞见。 ... [详细]

蜡笔小新 2024-11-03 14:37:24
hash
中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程

中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程 ... [详细]

蜡笔小新 2024-11-03 13:52:28
sum
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
sum
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
sum
深入解析 Python 中的类概念及其应用

对于Python初学者而言，掌握类的概念及其应用场景是至关重要的。本文详细探讨了类的定义、功能及其实用价值。类作为一种抽象的数据结构，能够有效地模拟现实世界中的对象，通过封装属性和方法，实现代码的复用性和模块化设计。文章结合实例分析，帮助读者深入理解何时以及为何需要定义类，从而提升编程效率和代码质量。 ... [详细]

蜡笔小新 2024-10-31 14:43:16

楼_市早班车_954

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章